Comment Filtering System
overview
我们的系统可以被分成两个部分,第一个部分是 illegal text detection, 第二个部分是高质量评论筛选 两个部分的模型分别训练
在上半部分,我们使用二分类的数据集对FastText模型和Bert 进行训练
在下半部分,我们通过筛选出的高质量评论对 Auto-Encoder 进行训练
最后我们的模型的运行效果应该是,当检测文本时,首先对文本进行敏感词识别,如果存在敏感词,那么就从上面走 如果没有识别到敏感词,就将文本输入Fasttext model, 进行第二次筛选,如果Fasttext 和 敏感词识别都呈现阳性 那么这个 text 会被判定成 非法文本
如果都识别成阴性,则会进入下游的模型进一步筛选 如果一阴一阳,那么又bert 做最后一次判断 决定其是否非法
进入下游的文本首先会经过bert 转成矩阵,训练好的 auto encoder 会尝试进行重建,如果重建误差在阈值范围内那就是高质量评论,反之亦然
Introduction
不文明用语过滤
数据集
数据增强
同音替换
文本分类 ML 方法
MultinomialNB RandomForest XGBoost LightGBM SVC ...
文本分类 DL 方法
FastText TextCNN LSTM BERT
模型选择
最终选择 FastText 和 BERT 进行上游过滤
高质量文本筛选
假设高质量评论应该是高赞评论 通过将高赞评论输入到预训练语言模型BERT中进行特征提取,得到每个评论的矩阵表示
- 基于我们的假设,高赞评论是高质量的评论,但是这并不意味着低赞评论就是低质量评论
- 比如有些评论的点赞量较少可能只是因为这条评论的曝光度不够
- 同时我们认为仅凭少量的人力人工筛选评论也是不现实且不客观的,毕竟高赞评论经历了大量人群的检验
仅通过高赞的评论,学习高质量评论的特征 或许可以用Auto-Encoder来解决这个问题